iT邦幫忙

2024 iThome 鐵人賽

DAY 21
0

在基因表現量的分析中,RPKM(Reads Per Kilobase of transcript, per Million mapped reads)是用來標準化基因表現量的常用方法,今天我將解釋 RPKM 計算的原理,並確保所需的基因數據已經準備好。

首先我先簡單說明 RPKM 的計算公式。RPKM 是一種衡量基因在不同樣本中的表現量的標準化方法,它考慮了基因的長度以及每個樣本中的總讀數,從而消除樣本之間的技術變異。

RPKM 的計算公式如下:

RPKM = (Read Count / Gene Length (kb)) / Total Reads (millions)

這個公式中:

  1. Read Count:指定基因在某個樣本中的讀數。
  2. Gene Length:指定基因的長度(以千鹼基為單位,kb)。
  3. Total Reads:是樣本中的全部基因總讀數(以百萬為單位,意思是要除百萬)。

接下來我必須查看前面幾天所爬取的數據是否 OK,這些數據的前處理包刮:

  • 基因長度:已從 Ensembl 網站抓取並計算了每個基因的長度,並進行了清理,確保基因長度是準確的。

  • 讀數數據:這些數據來自之前讀取的 Excel 文件,文件包含每個樣本中每個基因的讀數(read count)

  • 樣本的總讀數:就是全部基因的讀數加總

以下是準備計算總讀數的代碼:

# 提取樣本的讀數數據,假設讀數從第二列到第89列
read_counts = df.iloc[:, 1:89]

# 計算每個樣本的總讀數
total_reads = read_counts.sum(axis=0)
print(total_reads)

在上面這段 Code 中,我提取了樣本中的讀數數據,然後使用 sum() 函數計算每個樣本的總讀數,這些總讀數將用於後續的 RPKM 計算。

相信經過上面的介紹,能夠初步理解了 RPKM 的計算公式,並準備好所需的數據;接下來我將開始進行實際的 RPKM 計算,並使用這些數據來衡量每個基因在不同樣本中的表現量。


上一篇
Day20:基因長度數據檢查與清理
下一篇
Day22:實際計算樣本的總讀數
系列文
從零基礎到實戰:利用網頁爬蟲結合 RPKM 算法計算 COVID-19 感染者肺部基因表達量25
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言